这里分别基于sklearn和独立编程对线性判别分析进行了研究。
本文编程采用Python实现,相关源码托管于Github:PnYuan/Machine-Learning_ZhouZhihua,欢迎访问。
题目
本题采用题3.3中的西瓜数据集如下图示:
这里分别采用基于sklearn库和独立编程两种方式实现线性判别分析(LDA)(查看完整代码和数据集)。
具体过程如下:
数据预分析
可以参照周志华《机器学习》习题解答:Ch3.3 - 编程实现对率回归中的第一步。
基于sklean实现LDA
采用sklearn.discriminant_analysis.LinearDiscriminantAnalysis直接实现基础的LDA,通过分割数据集,在训练集上训练数据,在预测集上度量模型优劣。
给出样例代码如下:1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17from sklearn import model_selection
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn import metrics
import matplotlib.pyplot as plt
# generalization of train and test set
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=0.5, random_state=0)
# model fitting
lda_model = LinearDiscriminantAnalysis(solver='lsqr', shrinkage=None).fit(X, y)
# model validation
y_pred = lda_model.predict(X_test)
# summarize the fit of the model
print(metrics.confusion_matrix(y_test, y_pred))
print(metrics.classification_report(y_test, y_pred))
得出的混淆矩阵及相关度量结果如下:
[[4 1]
[1 3]]
precision recall f1-score support
0.0 0.80 0.80 0.80 5
1.0 0.75 0.75 0.75 4
avg / total 0.78 0.78 0.78 9
可以看出,由于数据集的散度不太明显,得出的类别判断存在较大误差。总体来看,这里的线性判别分类器与3.3题的对率回归性能相当(accuracy≈0.78)。
基于matplotlib绘制出LDA的分类区域如下图示:
可以看出,由于数据集的散度不太明显,决策边界存在较大误差。
自己编程实现LDA
模型分析
关于LDA的原理及参数求解,可参考书上p61、62。所谓线性判别。类似PCA,LDA可将较高维数据投影到较低维空间上,分析其降维后的数据特征的类别区分情况。
这里采用西瓜数据集,包含2个属性(特征),一个类标签(二分类0、1)。在此上运用LDA,即是要找到最优直线,映射到直线上的数据特征类分明显。
如何区分类别呢?采用类内散度(within-class scatter)最小化,类间散度(between-class scatter)最大化,关于散度的定义参考书中p61式(3.33)和(3.34)。
优化目标为最大化下式(Sw-类内散度,Sb-类间散度,w-直线方向向量):
我们的目的是最大化上面的式子,根据书中推导,最优解(直线参数)如下式:
相关详细过程参考树p61-62页。
系数计算
根据式3.39计算w,样例代码如下:
1 | # computing the d-dimensional mean vectors |
绘制投影查看类簇情况
通过绘制投影的方式,可视化西瓜数据在LDA直线上类簇情况(查看相关代码),如下图示:
从上图看出,由于数据线性不可分,则出现类簇重叠现象。接下来,通过观查数据,我们考虑将西瓜数据集中的bad类离群点15删去(即图中左上的黑点)此时数据集的线性可分性大大提高。
然后再次采用LDA进行映射,得到结果图如下:
可以看出,在数据集变得线性可分时,二维点到一维LDA直线的投影出现明显的分类,此时LDA分类器效果很好。
综上所述,由于西瓜数据集自身非线性因素,LDA所得直线未能很好的表现出类别的分簇情景,说明,LDA基本模型不太适用于线性不可分的情况。要拓展到非线性,或许可以考虑SVM-核技巧。
参考
本文的重要列出索引如下: